[2024年2月7日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Kestra社がまとめた2024年のデータエンジニアリングのトレンド
Kestra社のブログにおいて「2024 Data Engineering Trends」という記事が出ており、2024年に考えられるデータエンジニアリングのトレンドをまとめられていました。
特に気になったのが、多くの海外企業で人員削減の流れがあるなか、より少ないリソースで多くのことを実現するために、クラウドテクノロジー・AI・データ・プラットフォームという多方面に精通したジェネラリストの需要が高まっているとのことです。ソフトウェアエンジニアのチームとデータエンジニアのチームの業務の境界があいまいになったり、マーケティング職の採用候補者にもPythonやSQLの知識を求める傾向が出てきているとのことです。
またAIの発達により、「データエンジニアがPython・SQL・YAMLを作成する際にCopilot機能を用いる」、「BIツールにおいてプロンプトに基づいたダッシュボード生成機能ができたことによって、その算出された数値は結局人間が責任を負う必要があるため、Semantic Layerが2024年も成長傾向にあるだろう」ということも述べられています。
他にも、データエンジニアがDevOps周りも見ることによるプラットフォームエンジニアへの移行、データレイクハウスの需要の増加、商用サービスとOSSの戦い、リアルタイムなAIアプリケーションに対応するためのイベント駆動型のリアルタイムデータ処理の増加、などについて述べられています。
Data Extract/Load
Fivetran
Fivetranからdbt Cloudのジョブをトリガーできる機能を発表
Fivetranでのデータロードが終わったタイミングや、Fivetran上で設定する任意の頻度で、dbt Cloudのジョブをトリガーできる機能を発表しました。
弊社のやってみたブログも公開されているため、併せてご覧ください。
Data Warehouse/Data Lakehouse
Snowflake
GA4に関するコネクタがパブリックプレビュー
SnowflakeにGA4のデータを持ってくることができるコネクタがパブリックプレビューとなりました。
「Snowflake Connector for Google Analytics Raw Data」と「Snowflake Connector for Google Analytics Aggregate Data」の2種類があるようです。
本機能に関する弊社のブログもありますので、こちらも参考にしてみてください。
Snowflake Native Apps FrameworkがAWSおよびAzureで一般提供
Streamlitアプリ、ストアドプロシージャ、UDF、を外部のSnowflakeアカウントに共有・販売できるフレームワークとしてSnowflake Native Apps Frameworkについて、AWSとAzureで一般提供となりました!
External Network Accessが一般提供
UDFやストアドプロシージャを介して、Snowflake外部のネットワークに存在するAPIなどにアクセスできる機能として、External Network Accessがありますが、AWSおよびAzureにて一般提供となりました!
例えば、Slackへの通知、dbt Cloudのジョブ実行など、ネットワーク的にアクセスできる環境であればかなり幅広いことができる機能です。これが一般提供となるのは嬉しい方も多いと思います。
External Network Accessの詳細や使い所については、下記の資料がとてもわかりやすくまとめられています。こちらもぜひご覧ください。
Data Transform
dbt
dbt Cloudの最新アップデート情報のまとめ記事
dbt Labs社より、dbt Cloudの最新アップデート情報や、直近どういった機能をリリースしていくかをまとめた記事が出ていました。
大まかに以下の内容について言及されていました。
- Cell-Based Architectureの概要と、2024年内にすべての既存顧客に導入予定であること(サービス中断などは発生しない見込み)
- dbt CloudにおけるEnvironmentとJobのバージョンアップグレードの自動化(現在はBetaとして一部顧客に提供、2024年4月までに一般提供予定)
- GitHubなどのGitプロバイダーの障害に伴うdbt Cloudジョブのエラーについて、Gitリポジトリのキャッシュを用いることでdbt Cloudのジョブにエラーが生じないように
- アカウントレベルで管理するAccess token
dbtのthreadとSnowflakeへの影響・処理速度の高速化について
SELECT社より、dbtのthreadとSnowflakeへの影響・処理速度の高速化についてまとめられた記事が出ていました。
dbtでは接続先のデータウェアハウスでの最大並列実行処理数を「thread」で定義できますが、本記事ではthreadの数はデフォルトの「4」から「16」にすることを推奨しており、Snowflakeのウェアハウスにdbtからのクエリをキューイングさせていくことで、最大限ウェアハウスのリソースを用いてエンドツーエンドのdbtジョブ実行時間を最小限に抑えることができる、とのことです。
確実にSnowflakeにキューイングされていることを確かめる手順についても詳細に記載があります。本記事は全編通して非常に参考になったので、ぜひご覧ください。
dbt build・run・testの最適化に関するヒントをまとめた記事
phData社より、dbt build・run・testを実行する際に実行対象のModelやデータを最適化するためのヒントをまとめた記事が出ていました。
特に参考になったのが以下の点です。正直知らないテクニックが多く勉強になりました…
- incrementalなどconfigの値を用いて実行対象のModelを選択
- groupの値を用いて実行対象のModelを選択
- resultを用いたerrorやfail時に失敗したModelだけを選択
- sourceのfreshnessを用いた、前回の実行以降にfreshnessが更新されたModelだけを選択
- 開発時にデータセットからサンプルを取得するマクロ
- generic testに対するwhere設定時の、動的なフィルタ設定を行うためのマクロ
Business Intelligence
Looker
Lookerの今後の動向や2024年のロードマップに関するウェビナーが開催
日本時間2024年01月26日に、Lookerの今後の動向や2024年のロードマップに関するウェビナーとして「Looker Vision, Strategy, and Roadmap for 2024」が開催されました。
Looker Studioとの統合機能、DuetAIを用いたLookMLで定義されたSemantic Layerに対する自然言語での問い合わせ、など熱い機能について多く発表されました。
こちらのウェビナーの内容について、弊社でもブログで詳細に内容をまとめておりますでのこちらもぜひご覧ください。
Tableau
Tableau 2024.1がもうすぐリリース
Tableauのcoming Soonのページにて、Tableau 2024.1の情報が公開されていました。
Tableau Pulse周りの機能が中心に追加されるようです。
Steep
実際にSteepを試してみました
私の記事で恐縮ですが、前回のMDSまとめ記事で書いたSteepについて試してみました。
Steep自体でもMetricsの定義がGUIベースで行うことができ、実際にグラフを作成する際は簡単操作だったりテンプレートが用意されていて、非常に良い分析体験ができるツールだと感じましたね。
dbt Semantic Layerとの連携も可能で、連携操作もとても簡単でした。
Data Catalog
Atlan
Atlanの自動メタデータアップデート機能「Playbook」について
Atlanでは特定の属性を持つアセットについて自動でCertificates、Descriptions、Terms、Tagsなどを更新できる機能として「Playbook」があります。
このPlaybook機能について、以下の2機能が新しく追加されました。
- 新しいアセットを検出したときに実行
- Snowflakeのタグを元にアセットをフィルタリングをした上でPlaybookを実行
Secoda
2023年のSecodaのアップデート情報まとめ記事
Secodaが2023年に行ったアップデート情報をまとめた記事が出ていました。
Secoda AI、Data Observabilityの機能、Metricsの定義、列レベルリネージ含むUIの刷新、など多くのアップデートが行われたことがわかりますね。
Data Quality・Data Observability
Great Expectations
Great ExpectationsのCloud版がまもなくパブリックプレビュー
Great Expectations Cloudが2月22日頃(下記記事では2月1日投稿のブログで”約3週間後”と記載あり)にパブリックプレビューとなるようです。
米国東部時間2月21日にイベントがあり、その中で製品説明・デモ・ロードマップの紹介もあるようです。